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改进 YOLOv4 的 温室 环境 下 草 等 生育 期 识别 方法 
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摘 要 : 针对 目前 设施 农业 数字 化 栽培 调控 技术 中 对 作物 的 生育 期 实时 检测 与 分 类 问题 ， 提 出 一 种 改进 YO- 


LOv4 的 温室 环境 下 草 莓 生育 期 识别 方法 。 该 方法 将 注意 力 机 制 引 入 到 YOLOv4 主干 网 络 的 跨 阶段 局 部 残 差 


模块 (Cross Stage Partial Residual, CSPRes) 中 ， 融 
景 的 干扰 ， 提 高 模型 检测 精度 的 同时 保证 实时 检测 


合 草莓 不 同 生 长 时 期 的 目标 特征 信息 ， 同 时 降低 复杂 青 
效率 。 以 云南 地 区 的 智能 设施 草 千 为 试验 对 象 ， 结 果 表 


明 ， 本 人 研究 提出 的 YOLOv4-CBAM (YOLOv4-Convolutional Block Attention Module) 模型 对 开花 期 REKER 
期 、 绿 果 期 和 成 熟 期 草莓 的 检测 平均 精度 (Average Precision, AP) 分 别 为 92.38% 、82.45% 、68.01% 和 


92.31%， 平 均 精 度 均 值 (Mean Average Precision, 
Union, mloU) 为 77.88% ， 检 测 单 张 图 像 时 间 为 26. 


mAP) 为 83.79%， 平 均 交 并 比 (Mean Inetersection over 
13 ms。YOLOv4-CBAM 模型 检测 草莓 生育 期 的 m4P 相 比 


YOLOv4、YOLOv4-SE、YOLOv4-SC 模 型 分 别提 高 8.7% 、4.82% 和 1.63%。 该 方法 可 对 草莓 各 生育 期 目标 进 
行 精准 识别 和 分 类 ， 并 为 设施 草莓 栽培 的 信息 化 、 规 模 化 调控 提供 有 效 的 理论 依据 。 
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1 引言 


中 国 是 地 界 上 草 毒 生产 和 消费 的 第 一 大 国 ， 
草 稚 生 产 是 促进 中 国 农民 增收 致富 的 重要 经 济 作 
物 "“。 草 和 莓 生育 期 可 以 作为 灌溉 、 施 肥 、 环 境 控 
制 等 智能 管理 的 决策 依据 “”。 目 前 ， 草 夸 生 育 期 
的 识别 主要 依靠 人 工 观 测 ， 工 作 效 率 低 ， 无 法 满 
足 实时 、 快 速 的 监测 和 需求。 近年， 深度 学 习 在 作 
物 特征 识别 方面 开始 应 用 ， 由 于 温室 环境 复杂 ， 
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based on improved YOLOv4[J]. Smart Agriculture, 2021, 3 


ELE AS PAE TR IT SY ERRIA Ar E 
挡 、 果 实 重 县 等 因素 ， 给 草 奏 生育 期 识别 人 带 来 了 
困难 。 因 此 ， 研 究 一 种 温室 环境 下 草 每 生育 期 识 
别 方法 对 提高 水 肥 一 体 化 、 温 室 环 控 系统 、 机 咒 
人 等 智能 装备 作业 精度 具有 重要 意义 。 

近年 来 ， 随 着 深度 学 习 技术 在 场景 识别 、 物 
体 分 类 等 方面 的 研究 越 来 越 成 熟 "， 其 对 果蔬 的 
识别 也 逐渐 成 为 国内 外 研究 的 热点 “。 深 度 学 
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习 中 目标 检测 模型 主要 分 为 两 类 。 一 类 是 以 R- 
CNN (Region-Convolutional Neural Network) 、 
Faster R-CNN 和 Mask R-CNN 为 代表 的 基于 候选 
区 域 的 两 阶段 目标 检测 方法 ， 该 类 方法 首先 产生 
目标 的 候选 区 域 ， 然 后 利用 卷 积 网 络 提取 区 域 特 
征 ， 对 候选 区 域 中 的 目标 进行 分 类 和 回归 ， 识 别 
精度 高 但 速度 较 慢 ， 难 以 满足 实时 检测 要 求 “。 
Lin 和 Chen "提出 了 一 种 基于 区 域 的 目标 检测 方 
法 Faster R-CNN 对 室外 草 每 花 条 进行 检测 ， 检 测 
精度 为 86.1%， 但 检测 时 间 达 0.118 so Yu $% 
提出 一 种 改进 的 Mask R-CNN 对 成 熟 和 未 成 熟 草 
Fe DEAT YB, 平均 检测 精度 为 95.78%， 但 检测 
速度 仅 为 8 Vs。 可 见 基 于 两 阶段 目标 检测 方法 检 
测速 度 有 待 进 一 步 提高 。 另 一 类 是 以 SSD (Sin- 
gle Shot MultiBox Detector) 、YOLO (You Only 
Look Once) 系列 为 代表 的 基于 无 侯 选 区域 的 单 
阶段 目标 检测 方法 ， 可 直接 通过 网 络 产生 目标 类 
别 和 边界 框 而 无 需 选择 候选 区 域 ， 此 类 方法 检测 
速度 快 且 识别 准确 率 较 高 ， 可 满足 实时 检测 要 
He, XI SEO 提出 一 种 改进 的 YOLOv3 算 
法 对 复杂 环境 下 成 熟 和 未 成 熟 草 每 静态 图 像 和 动 
态 视 频 进 行 识别 ， 对 成 熟 和 未 成 熟 草 每 的 识别 准 
确 率 分 别 为 97.14% 和 96.51%， 且 每 张 图 片 平均 
检测 时 间 为 35.99 ms。 赵 春江 等 "提出 一 种 级 
联 卷 积 神经 网 络 对 温室 环境 下 番茄 不 同 花 期 进行 
检测 ， 该 方法 首先 采用 特征 金字 塔 网 络 (Fea- 
ture Pyramid Network, FPN) 分 割 出 番茄 花束 区 
域 ， 随 后 将 分 割 后 的 花束 传人 YOLOv3 网 络 提取 
番茄 不 同 花 期 的 小 目标 特征 ， 以 实现 花期 识别 ， 
检测 时 间 为 12.54 mso JR ESE O 提出 一 种 融 
A SE (Squeeze-and-Excitation) 注意 力 机 制 
(Attention Mechanism) 的 YOLOv3 网 络 对 复杂 
环境 下 冬 吏 果实 进行 识别 ， 通 过 在 YOLOv3 主干 
网 络 的 最 后 两 个 残 差 块 后 通信 SE 模 块 ， 增 强 特 
征 表达 能 力 ， 试 验 表明 融入 SE 的 YOLOv3 模 型 
平均 检测 精度 为 82.01%， 检 测 耗 时 0.0723 s。 可 
见 基于 单 阶段 目标 检测 的 YOLO 算 法 在 复杂 环境 
下 具有 较 好 的 识别 性 能 和 实时 性 。 


目前 研究 大 多 只 对 作物 成 熟 度 或 者 花 朱 进行 
识别 ， 对 作物 的 花期 和 果实 生长 期 同时 识别 的 研 
究 较 少 。 本 研究 以 不 同时 期 的 草莓 图 像 为 研究 对 
象 ， 提 出 一 种 改进 YOLOv4 的 温室 环境 下 草莓 生 
育 期 识别 方法 ， 将 注意 力 机 制 引 入 YOLOV4 主干 
网 络 的 跨 阶段 局 部 残 差 模块 中 ， 增 加 识别 草莓 不 
同 生长 时 期 目标 的 特征 ， 同 时 降低 背景 信息 的 干 
扰 ， 以 提高 温室 环境 下 草莓 生育 期 检测 精度 ， 为 
草 芍 智能 化 生产 管控 等 提供 决策 依据 。 


2 材料 与 方法 


2.1 样本 采集 及 预 处 理 


2.1.1 样本 采集 

草 薛 数据 采集 于 云南 省 昆明 市 富民 县 种 植 基 
地 ， 品 种 为 章 姬 ， 采 用 手机 蛋 石 云 软件 手动 远程 
采集 草 每 图 片 ， 镜 头 分 辩 率 为 1920X1080 px, 
QO 1 Pas. PEAS ZE 2020 4F 8 H 13 A 2!) 2020 4 
11 月 13 日 期 间 采 集 ， 历 经 3 个 月 ， 分 别 在 每 天 的 
时 上、 中午 、 下 午 采 集 一 次 样本 数据 ， 每 次 采集 
2 张 图 片 ， 分 别 采集 不 同 生 长 阶段 、 不 同 庶 挡 程 
度 的 草 每 样本 图 片 ， 经 筛选 后 共 300 张 。 为 考虑 
模型 训练 图 片 大 小 对 计算 机 的 性 能 要 求 ， 将 图 片 
大 小 统一 压缩 为 960X540 px， 提 高 网 络 处 理 效 
率 和 小 目标 检测 的 实时 性 "里 。 根 据 图 片 采集 情 
况 将 草莓 样本 分 为 4 个 时 期 : 开花 期 REER 
期 、 绿 果 期 和 成 熟 期 ， 如 图 2 所 示 。 其 中 开花 期 
84 张 ， 果 实 膨大 期 58 张 ， 绿 果 期 33 张 ， 成 熟 期 
87 张 ,包含 多 种 时 期 的 图 片 38 张 。 
2.1.2 样本 增强 

为 提高 网 络 模型 泛 化 能 力 和 和 鲁 棒 性 ， 采 用 数 
据 增 强 方 法 增加 草 莹 生育 期 样本 数量 "” ， 防 止 
网 络 因 训练 样本 不 足 导致 过 拟 合 。 采 用 左右 翻 
转 、 调 整 图 像 的 亮度 、 对 比 度 ， 以 及 增加 噪声 等 
方法 对 草 每 生育 期 样本 图 片 进行 数据 增强 ， 每 张 
图 片 增强 5 次 ， 增 强 后 的 草 故 样本 岁 片 集 为 1$00 
张 ， 并 按照 12:2:1 的 比例 将 数据 集 划 分 为 训练 集 
(1200 张 )、 测 试 集 (200 张 ) 和 验证 集 (100 
张 )。 采 用 LabelImg 标 注 工具 对 每 个 样本 进行 人 
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图 1 草莽 种 植 基 地 与 图 像 采集 设备 


Fig. 1 Strawberry planting base and image acquisition equipment 


> 


TIF I 4 wt 


(b) 有 果实 膨大 期 


工 标注 ， 生 成 一 个 目标 对 象 二 维 像素 坐标 信息 的 
XML 文件 。 


2.2 草莓 生育 期 识别 模型 构建 


2.2.1 注意 力 机 制 

近年 来 ， 注 意 力 机 制 在 图 像 处 理 、 语 音 识别 
和 情感 分 析 等 领域 具有 广泛 应 用 “”， 注 意 力 机 
制 通过 对 神经 网 络 传 播 过 程 中 的 特征 通道 加 以 不 
同 的 权重 ， 使 得 网 络 更 加 重视 权重 较 大 的 通道 以 
进行 参数 更 新 "“， 其 核心 思想 在 于 让 神经 网 络 
能 够 忽略 无 关 特 征 信 息 而 关注 重要 信息 ， 从 而 减 
少 任务 复杂 度 ， 提 高 检测 效率 。 图 像 领域 的 注意 
力 一 般 集 中 于 提取 特征 的 通道 域 和 实现 像素 之 间 
的 空间 域 ， 注 意 力图 与 通道 维度 和 空间 维度 中 的 
特征 图 相 乘 提取 更 加 细 化 的 信息 特征 。 

SE (Squeeze-and-Excitation)'" 是 一 种 从 通 
道 维 度 提 取 特 征 的 卷 积 神经 网 络 注意 力 机 制 ， 采 
用 特征 重 标定 策 略 ， 让 网 络 通过 学 习 的 方式 自动 
获取 每 个 特征 通道 的 重要 信息 '"， 主 要 包括 压 
缩 和 激发 两 个 过 程 ， 网 络 结 构 如 图 3 (a) 所 示 。 
压缩 阶段 通过 全 局 平均 池 化 将 空间 大 小 为 HX 
WXC 的 特征 图 压缩 成 1X1XC 的 一 维特 征 向 


(c) 绿 果 期 
图 2 不 同 生育 期 草莓 样本 


Fig. 2 Strawberry sample of different growth periods 


量 ， 随 后 传人 激发 阶段 。 激 发 阶段 主要 由 2 个 全 
连接 层 (Fully Connected, FC) 组 成 ， 第 1 个 全 
连接 层 有 CA 个 神经 元 ， 输 入 为 1X1XC， 输 出 
为 1X1XCAr， 其 中 7 为 降 维 缩放 参数 ， 用 于 压缩 
全 连接 层 参 数 ; 第 2 个 全 连接 层 有 C 个 神经 元 ， 
输入 为 1X1XCA， 输 出 为 1X1XC， 相 比 直 接 
使 用 1 个 全 连接 层 可 更 好 地 拟 合 通道 间 复 杂 的 非 
线性 关系 ， 减 少 模型 复杂 度 。 经 Sigmoid PTE PK 
数 得 到 大 小 为 1X1XC 的 一 维 向 量 ， 最 后 经 特征 
重 标定 步 又， 将 激发 阶段 输出 的 一 维 向 量 与 原 输 
入 特征 图 $ 按 通道 权重 相 乘 得 到 大 小 为 耳 XWX 
C 的 输出 特征 图 S'o 

CBAM (Convolutional Block Attention Mod- 
ule)'” 是 一 种 从 通道 和 空间 两 个 维度 提取 特 
征 的 卷 积 神经 网 络 注意 力 机 制 ， 网 络 结构 如 
图 3 (b) Prax, 包含 CAM (Channel Attention 
Module) 通道 注意 力 机 制 和 SAM (Spartial At- 
tention Module) 空间 注意 力 机 制 。CAM 相 比 SE 
多 了 一 个 并 行 的 最 大 池 化 层 ， 首 先 通过 执行 平均 
池 化 和 最 大 池 化 将 空间 大 小 为 HXWXC 的 特征 
图 压缩 为 1X1XC 的 一 维 向 量 ， 得 到 当前 特征 网 
的 全 局 压缩 特征 量 。 池 化 后 的 一 维 向 量 传人 多 层 
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EX Fal ae X Jah (Muti-Layer Perception, MLP) , 
MLP 主要 由 2 个 全 连接 层 构成 ， 第 1 个 全 连接 层 
将 通道 维 数 从 C 维 降 至 Cr 维 ， 第 2 个 全 连接 层 
将 通道 数 从 Cr 维 增加 至 C 维 。 经 全 连接 层 后 的 
特征 按 元 素 相 加 ， 再 进行 Sigmoid 运 算 生 成 大 小 
为 1X1XC 的 一 维 向 量 Me。Me 与 输入 大 小 为 
HX WXC 的 特征 图 F 按 元 素 相 乘 得 到 大 小 为 HX 
WxXC 的 特征 图 F' 作 为 SAM 模 块 的 输入 。SAM 
输入 特征 图 F' 先 分 别 在 通道 维度 上 进行 最 大 池 化 


Global Average 3 
一 一 | 1x1 XC 
Pooling 


FC |1x 1XCr| 


Rela] ix1xcr| 


E axe uR 


Ez I IX Tel 


和 平均 池 化 操作 得 到 2 个 大 小 为 HXWX1 的 特 
征 图 ， 将 这 2 个 特征 图 按 通 道 维 度 拼 接 成 HX 
WX2 的 特征 图 ， 再 采用 卷 积 核 大 小 为 3X3 的 卷 
让 层 对 拼接 后 的 特征 图 降 维 至 HXWX1 的 特征 
图 ， 通 过 Sigmoid 激 活 函 数 得 到 大 小 为 HXWX1 
的 空间 注意 力 特征 图 ,最 后 将 其 与 SAM 模块 的 
输入 特征 图 FF' 按 元 素 相 乘 得 到 大 小 为 HXWXC 
的 输出 特征 图 F"。 


} 


输 Xe 


出 S 


(a)SE 网 络 


(b)CBAM 网 络 
图 3 SE 和 CBAM 注 意 力 机 制 网 络 结构 图 


Fig. 3 SE and CBAM attention mechanism network structure diagram 


2.2.2 BUH YOLOV4 网 络 结构 

YOLOv4 在 YOLOv3 ”" 基础 上 采用 了 近 
些 年 神经 网 络 领域 中 优秀 的 算法 模型 和 训练 技 
巧 4， 不 仅 提 高 了 物体 检测 精度 和 速度 ， 且 对 
于 遮挡 的 物体 检测 性 能 相 比 YOLOv3 更 加 优越 ， 
能 满足 实时 性 检测 。 由 于 草 侮 各 个 生育 期 为 小 目 
标 ， 且 所 处 为 非 结 构 化 环境 ， 花 朱 、 果 实 之 间 存 
在 密集 分 布 、 谈 挡 等 因素 ， 网 络 在 前 向 传播 过 程 
中 随 着 网 络 层 数 的 加 深 ， 受 谈 挡 和 叶子 背景 干扰 
的 小 目标 特征 表示 愈 发 减弱 ， 导 致 这 些 目标 的 细 
节 特 征 在 整个 深层 网 络 传播 过 程 中 消失 '”， 造 
成 漏 检测 或 误 检 测 ， 因 此 加 强 小 目标 特征 学 习 和 
降低 背景 干扰 极为 重要 。 针 对 此 问题 ， 本 研究 将 
注意 力 机 制 融入 到 YOLOv4 特 征 提 取 网 络 中 的 跨 
阶段 局 部 残 差 模块 (Cross Stage Partial Residual, 
CSPRes) “ 结构 中 ， 通 过 增加 竺 识别 目标 区 域 
的 特征 权 值 以 降低 背景 信息 对 igen ees 
扰 =, ME ies A BE. CEA YOLOV4 网 
络 结构 如 图 4 所 示 ， 主 要 由 融入 注意 力 机 制 的 特 


征 提 取 网 络 、 特 征 融 合 模块 ， 以 及 YOLOv3 head 
这 3 部 分 组 成 。 

融入 注意 力 机 制 的 特征 提取 网 络 主要 由 
CBM, 、CSP1-SE/CBAM 、CSP2-SE/CBAM , CSP8- 
SE/CBAM, CSP8-SE/CBAM, CSP4-SE/CBAM 
组 成 。CBM 主要 由 卷 积 (Conv) 、 批 量 归 一 化 
(Batch Normalization, BN) 和 Mish 激活 函数 构 
成 ， 主 要 用 于 对 特征 图 进行 降 维 。CSPX (Cross 
Stage Partial X) 主要 由 CBM 卷 积 操作 和 和 个 残 
差 模块 (ResUnit) °° 级 联 构成 ， 卷 积 操作 对 特 
征 进行 降 维 ， 葡 差 模块 在 浅 层 网 络 和 深层 网 络 间 
以 跳跃 连接 的 方式 将 输入 直接 与 输出 相 加 ， 用 于 
解决 深度 神经 网 络 中 的 梯度 爆炸 问题 。CSPX- 
SE/CBAM 表示 分 别 将 SE 通道 注意 力 机 制 、 
CBAM 空间 注意 力 机 制 融 入 到 CSPRes 结 构 中 用 
于 加 强 草 等 生育 期 目标 特征 学 习 。 特 征 融 合 模 块 
主要 由 空间 金字 塔 池 化 (Spatial Pyramid Pool- 
ing, SPP)?” 和 路 径 聚 合 网 络 (Path Aggregation 
Network, PANet) 2 组 成 。SPP 使 用 不 同 尺度 的 
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图 4 改进 的 YOLOVv4 网 络 结构 图 


Fig. 4 Improved YOLOv4 network structure diagram 


最 大 池 化 核对 特征 图 像 进行 池 化 操作 ， 用 于 增加 
主干 网 络 提取 eee PANet 将 不 同 检 
测 层 参数 特征 进行 一 步 提 高 特征 表达 能 
力 。 Wa. 416X 
416 px， 通 过 融入 注意 力 机 制 的 特征 提取 网 络 和 
特征 融合 模块 得 到 大 小 为 52X52 px、26X26 px、 
13X13 px 的 目标 特征 图 ，YOLOv3 head 对 这 3 
种 不 同 尺 度 大 小 的 特征 图 进行 分 类 和 回归 预测 ， 
输出 类 别 和 边界 框 位 置 。 
2.2.3 ”融入 注意 力 机 制 的 特征 提取 网 络 

由 于 注意 力 机 制 模块 可 以 插入 到 网 络 任意 位 
置 ， 考 虑 到 不 更 改 CSPDarknet53 的 网 络 结构 而 
加 载 预 训练 权重 ， 本 研究 分 别 将 SE 通道 注意 力 
HLHI, CBAM 空间 注意 力 机 制 蔡 /插入 到 主干 网 
络 CSPDarknet53 的 CSPRes 结构 的 第 一 层 卷 积 前 
和 最 后 一 层 卷 积 后 ， 不 会 改变 网 络 结构 。 融 入 SE 
的 主干 网 络 将 其 称 为 CSP-SE (Cross Stage Partial- 
Squeeze and Excitation), fal A CBAM 的 主干 网 络 
将 其 称 为 CSP-CBAM (Cross Stage Partial-Convo- 
lutional Block Attention Module) ， 网 络 结构 分 别 
如 图 5 (a) 和 5 (b) Aras. AlS 中 CSPX-SE、 
CSPX-CBAM 中 的 了 都 表示 跨 阶段 局 部 残 差 模 块 
个 数 ， 分 别 为 1、2、8、8 和 4。 同 时 融合 注意 力 
机 制 的 主干 网 络 的 降 维 缩放 参数 + 参照 SENet 网 
25, 设置 r=16 对 全 连接 层 参数 进行 压缩 ， 用 于 
平衡 速度 和 检测 性 能 。 

如 图 5 tas , CSP-SE 网络 结构 由 CBM、 
CSP1-SE、CSP2-SE、2 个 CSP8-SE 和 CSP4-SE 
组 成 ，CSP-CBAM 网 络 结 构 由 CBM、CSP1- 


CBM 


(a)CSP-SE 结 构 
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(b)CSP-CBAM 结构 


图 5 融入 注意 力 机 制 的 特征 提取 网 络 


Fig. 5 Feature extraction network integrated with attention 


mechanism 
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CBAM、 CSP2-CBAM, 2 个 CSP8-CBAM 和 
CSP4-CBAM 组 成 。CSPX-SE FI CSPX-CBAM 结 
构 分 别 将 SE 和 CBAM 注意 力 机 制 插入 到 CSPRes 
的 第 一 层 卷 积 前 和 最 后 一 层 卷 积 后 ， 网 络 在 训练 
过 程 中 对 经 过 使 用 注意 力 机 制 的 通道 维度 和 空间 
维度 加 以 更 高 的 特征 权重 ,使 得 网 络 更 加 重视 权 
值 较 大 的 特征 以 进行 学 习 ， 忽 视 无 关 特 征 信息 ， 
以 提取 更 多 目标 特征 传递 给 后 续 特 征 融合 模块 。 
2.2.4 草莓 生育 期 检测 模型 架构 

本 研究 将 融入 注意 力 机 制 的 特征 提取 网 络 作 
为 改进 YOLOv4 的 主干 网 络 ， 对 草 侮 各 个 生育 期 
进行 识别 ， 草 侮 生育 期 检测 模型 架构 如 图 6 所 
示 。 主 要 分 为 2 部 分 : 第 一 部 分 为 数据 预 处 理 ， 
第 二 部 分 为 草莓 生育 期 检测 网 络 。 数 据 预 处 理 在 


， 


r-----"----- 
1 


数据 采集 基础 上 采用 数据 增强 方法 对 样本 进行 扩 
增 ， 用 于 提高 模型 汉化 能 力 。 草 芍 生 育 期 检测 网 
络 主要 由 融入 注意 力 机 制 的 特征 提取 网 络 和 特征 
融合 模块 组 成 。 融 入 注意 力 机 制 的 特征 提取 网 络 
在 训练 时 通过 学 习 忽 略 无 关 目 标 特 征 的 信息 而 关 
注重 点 信息 ， 提 取 不 同时 期 更 准确 的 草莓 特征 传 
入 特征 融合 网 络 中 ， 特 征 融 合 模 块 对 不 同 尺度 的 
特征 进行 聚合 ， 得 到 预测 框 和 草莓 类 别 ， 分 别 为 
开花 期 、 果 实 膨胀 期 、 绿 果 期 和 成 熟 期 。 网 络 在 
训练 过 程 中 学 习 各 个 阶段 草 每 的 最 重要 特征 并 进 
行 区 分 ， 同 时 根据 边界 框 、 类 别 和 置信 和 度 损失 函 
数 不 断 地 调整 模型 参数 使 网 络 最 终 达 到 收敛 状 
态 ， 得 到 更 加 准确 的 类 别 预 测 和 边界 框 位 置 ， 实 
现 草 每 各 个 生育 期 的 精准 检测 。 


草莓 生育 期 检测 网 络 
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图 6 草莓 生育 期 检测 模型 架构 


Fig.6 Detection model architecture of strawberry growth period 


2.2.5 ”损失 函数 
YOLO 损 失 包 含 类 别 损失 、 边 界 框 位 置 损失 
和 和 置信 和 度 损失 。 类 别 损失 和 置信 度 损失 都 采用 二 
元 交叉 彤 损失 函数 ， 而 目标 检测 中 的 一 项 重要 任 
务 就 是 确定 目标 边界 框 位 置 。 改 进 的 YOLOv4 网 
络 采 用 CIoU Loss (Complete IoU Loss) 计算 边 
界 框 位置 损 失 ， 同 时 考虑 到 了 边界 框 重合 度 、 中 
心 距离 和 宽 高 比 的 信息 ， 进 一 步 提 高 模型 精度 。 
CIoU Loss 计 算 如 公式 (1) 所 示 。 
etd, b) 6 ， 
c 


Lewy =1-1oU+ (1) 


其 中 ，JoU 为 预测 框 与 目标 框 的 交 并 比 ; b 
为 先 验 框 的 中 心 点 ; b* 为 目标 框 的 中 心 点 ; p 为 
两 个 中 心 点 的 欧式 距离 ; c 为 先 验 框 和 目标 框 之 
间 的 最 小 矩形 的 对 角 线 距离 ; a 为 权衡 参数 ; v 
为 长 宽 比 一 致 性 衡量 参数 。x 和 ?* 计算 方法 如 公 


A (2) 和 公式 (3) 所 示 。 


v 


= ~ 2 

(lel yey (2) 
4 4 

aa (arctan 7 一 arctan =)? (3) 


其 中 ，w 为 预测 框 的 宽 ; 为 预测 框 的 高 。 
3 试验 与 结果 分 析 


3. 


一 人 


试验 环境 及 参数 设置 


草莓 检测 网 络 均 在 Pytorch 深度 学 习 框 架 中 
训练 。 硬 件 环境 为 Intel@ CoreTM i7-9800X CPU 
@ 3.8 GHzx16 中 央 处 理 器 ，16 GB 运行 内 存 ， 
12 GB AY GeForce GTX 1080ti 显卡 。 软 件 环境 为 
Ubuntu16.04 系统 ， 网 络 在 Anaconda3 虚拟 环境 
下 运行 ， 配 置 安装 python3.7、Cudal0.0 和 
Cudnn7.4。 图 片 输入 大 小 为 416X416 px。 训 练 
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采用 冻结 训练 策略 。 首 先 冻结 主干 网 络 参 数 训练 
1000 步 ， 学 习 率 设置 为 0.01， 随 后 解冻 网 络 训练 
2000 步 ， 学 习 率 设置 为 0.001， 总 迭代 步 数 为 
3000， 采 用 冻结 训练 可 以 加 快 网 络 训 练 速 度 ， 也 
可 防止 训练 初期 权重 被 破坏 。IoU 阅 值 设置 
为 0.5。 


3.2 试验 评价 指标 


本 研究 采用 准确 率 (Precision，P)、 召 回 率 
(Recall，R) 、 平 均 精 度 (Average Precision, 
AP) 、 平 均 精 度 均值 (Mean Average Precision, 
mAP) 、 平 均 交 并 比 (Mean Intersection over 
Union, mloU) 作为 网 络 性 能 的 主要 评价 指标 。 
其 中 m4P 是 衡量 多 类 别 目 标 检测 模型 性 能 的 重 
要 指标 ， 交 并 比 是 预测 框 与 真实 框 的 重合 程度 ， 
用 来 表示 目标 定位 精度 。 各 评价 指标 计算 如 公 
式 (4) ~AR (7) 所 示 : 

TP 


pan (4) 
TP + FP 
TP 
R=— (5) 
TP + FN 
AP = | P(R)dR (6) 
1 n 
mAP =- ) AP (7) 


其 中 ，7P 表 示 模 型 预测 为 正 的 正 样本 个 数 ， 
个 ; FP 表示 模型 预测 为 正 的 负 样 本 个 数 ， 个 ; 
FN 表示 模型 预测 为 负 的 正 样 本 个 数 , 个 ; TNK 


示 模 型 预测 为 负 的 负 样 本 个 数 ， 个 ; 4P 为 准确 
率 在 召回 率 上 的 积分 ， 只 计算 单一 类 别 精度 值 ; 
mA4P 为 每 一 个 类 别 4P 的 平均 值 ， 其 中 i 为 类 别 编 
号 ,nn 为 类 别 个 数 , To BOP HEA AWK 
别 分 别 为 开花 期 、 果 实 膨大 期 、 绿 果 期 和 成 熟 
期 ， 故 zx=4。 

使 用 模型 增 量 参数 和 平均 检测 时 间作 为 检测 
速度 的 评估 指标 。 


3.3 草莓 生育 期 检测 性 能 结果 分 析 


为 有 效 对 比 YOLOv4 网 络 中 融入 SE 和 
CBAM 注意 力 机 制 的 性 能 ,将 SAM 与 SE 注意 力 
机 制 级 联 组 合成 先 SAM 空间 后 SE 通道 的 混合 注 
意 力 机 制 ， 称 其 为 SC (Spatial and Channel) 注 
意 力 机 制 模块 。 同 时 将 SC 注意 力 机 制 融 入 到 
YOLOv4 主干 网 络 的 跨 阶 段 局 部 残 差 模块 的 第 一 
层 卷 积 前 和 最 后 一 层 卷 各 后， 融入 SC 的 主干 网 
络 称 其 为 CSP-SC (Cross Stage Partial-Spatial and 
Channel) 。 分 别 将 CSP-SE、CSP-CBAM CSP- 
SC 作为 改进 YOLOv4 的 主干 网 络 ， 记 为 YO- 
LOv4-SE、YOLOv4-CBAM 、YOLOv4-SC。 为 
验证 融入 注意 力 机 制 的 改进 YOLOv4 模 型 在 温室 
环境 下 检测 草 侮 生育 期 的 性 能 ， 与 YOLOv4 网 络 
在 测试 集 上 对 草 每 开花 期 、 果 实 膨大 期 、 绿 熟 期 
和 成 熟 期 这 4 个 生长 时 期 检测 的 性 能 进行 对 比分 
析 ， 结 果 如 表 1 所 示 。 


表 1 不 同 检测 模型 在 草莓 生育 期 测试 集 上 的 性 能 测试 结果 


Table 1 Performance testing results of different detection models on the strawberry growth period test set 


不 同 生长 时 期 草莓 检测 精度 4P/%6 x 


模型 参数 增 量 开花 期 SB AN mAP/% mloUl% 平均 检测 时 间 /ms 
YOLOv4 0 77.96 77.10 54.77 90.53 75.09 72.35 25.00 
YOLOv4-SE 856,576 86.29 79.17 59.41 91.01 78.97 74.42 25.45 
YOLOv4-SC 856,990 90.34 81.06 65.25 91.98 82.16 75.15 25.87 
YOLOv4-CBAM 856,990 92.38 82.45 68.01 92.31 83.79 77.88 26.13 


由 表 1 可 知 ，YOLOv4-CBAM 对 不 同 生 长 时 
期 草 获 检 测 的 m4P 和 mloU 相 比 YOLOv4 分 别提 
高 8.7% 和 5.53%,， 平均 检测 时 间 相 比 YOLOv4 增 
加 1.13 ms; YOLOv4-SC 对 不 同 生长 时 期 草 侮 检 
测 的 m4P 和 mIoU 相 比 YOLOv4 分 别提 高 7.07% 


和 2.8%， 平 均 检 测 相 比 YOLOv4 增 加 0.87 ms; 
YOLOv4-SE 对 不 同 生长 时 期 草莓 检测 的 m4P 和 
mloU 相 比 YOLOv4 分 别提 高 3.88% 和 2.07%, F 
均 检 测 时 间 相 比 YOLOv4 增 加 0.45 ms。 可 知 在 
YOLOv4 主干 网 络 中 加 入 注意 力 机 制 虽然 增加 了 
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模型 参数 数量 ， 但 模型 检测 时 间 只 是 略 有 增加 ， 
而 YOLOv4-CBAM、YOLOv4-SC 和 YOLOv4-SE 
检测 性 能 相 比 YOLOv4 却 有 显著 提升 。 其 次 ， 
YOLOv4-CBAM 的 mAP 和 mloU 相 比 YOLOv4- 
SE 模 型 分 别提 高 4.82% 和 3.46%， 平 均 检 测 时 间 
相 比 YOLOv4-SE 增 加 0.68 ms， 是 因为 CBAM 在 
网 络 结构 上 比 SE 多 了 一 个 空间 注意 力 模 块 ， 是 
从 通道 和 空间 两 个 维度 提取 草莓 各 个 生长 时 期 的 
特征 ， 使 得 YOLOv4-CBAM 模型 相 比 YOLOv4- 
SE 更 加 关注 于 识别 物体 ， 从 而 提高 了 检测 精度 
和 定位 精度 。YOLOv4-CBAM 的 m4P 和 mloU 相 
比 YOLOv4-SC 模 型 分 别提 高 1.63% 和 2.73%, Æ 
均 检 测 时 间 相 比 YOLOv4-SC 增 加 0.26 ms， 是 因 
为 SC 模块 中 的 SE 结构 相 比 CBAM 中 的 CAM 结 
构 少 了 一 个 并 行 的 最 大 池 化 层 ， 采 用 并 行 的 最 大 
池 化 和 平均 池 化 组 合 相 比 ， 使 用 一 个 平均 池 化 丢 
失 的 特征 信息 更 少 ， 得 到 的 目标 特征 更 丰富 ， 定 
位 准确 度 更 高 。 综 合 权 衡 检测 精度 和 网 络 运 行 时 
间 ，YOLOv4-CBAM 模 型 检测 不 同 生 长 时 期 草 
每 更 具 鲁 棒 性 ， 满 足 实 时 性 检测 要 求 。 


3.4 草莓 生育 期 识别 效果 对 比分 析 


本 研究 分 别 采 用 YOLOv4-CBAM、YO- 
LOv4-SE、YOLOv4-SC 和 YOLOv4 4E F HE 4% Al 
片 〈 随 机 选取 样 例 1 和 样 例 2) 对 草莓 生育 期 行 
预测 ， 结 果 如 图 7 所 示 。 从 图 7 中 可 以 看 到 ， 融 
入 注意 力 机 制 的 改进 YOLOv4 模 型 对 复杂 环境 下 
不 同时 期 的 草莓 均 具 有 很 好 的 识别 效果 ， 且 能 准 
确定 位 不 同时 期 的 草 侮 目标 。 

为 有 效 对 比 不 同 模型 的 识别 效果 ， 对 草莓 各 
个 时 期 进行 计数 ， 并 统计 其 置信 和 度 大 小 ， 结 果 如 
表 2 所 示 ， 包 括 不 同 模型 识别 样 例 1 和 样 例 2 中 
不 同 生 长 时 期 草 芍 的 置信 和 度 和 个 数 结果 。 

从 表 2 (108 页 ) 可 知 ，YOLOv4-CBAM 对 
开花 期 、 果 实 膨大 期 、 绿 果 期 和 成 熟 期 草莓 识别 
的 置信 度 均 高 于 其 他 模型 ， 表 明 YOLOv4- 
CBAM 预测 目标 正确 概率 更 大 。 样 例 1 中 YO- 
LOv4-CBAM, YOLOv4-SC 和 YOLOv4-SE 识别 


开花 期 和 果实 膨大 期 数量 明显 多 于 YOLOv4， 说 
明 增 加 注意 力 机 制 能 增加 小 目标 特征 提取 的 能 
力 。 样 例 2 中 YOLOv4 识 别 绿 果 期 时 存在 误 识别 
现象 ， 将 果实 膨大 期 和 成 熟 期 误 识别 为 绿 果 期 ， 
绿 果 期 和 果实 膨大 期 之 间 特 征 较为 相似 ， 被 叶子 
遮挡 的 成 熟 期 特征 不 明显 ， 导 致 YOLOv4 出 现 误 
识别 为 绿 果 期 现象 ， 且 YOLOv4 识 别 果实 膨大 期 
数量 少 于 YOLOv4-SE、YOLOv4-SC 和 YOLOv4- 
CBAM 模 型 ， 是 因为 果实 膨大 期 颜色 特征 与 叶子 
背景 特征 相似 ， 导 致 YOLOv4 识 别 果 实 膨大 期 特 
征 时 易 受 叶子 背景 干扰 ， 而 加 入 注意 力 机 制 可 以 
降低 背景 信息 和 其 他 特征 信息 的 干扰 。YOLOv4- 
SE、YOLOv4-SC 和 YOLOv4-CBAM 模 型 均 无 误 
识别 现象 ， 但 YOLOv4-CBAM 模型 相 比 YO- 
LOv4-SE 和 YOLOv4-SC 模型 识别 不 同 生 长 时 期 
草莓 的 置信 和 度 更 高 ， 且 YOLOv4-CBAM 识 别 果 
实 膨大 期 和 成 熟 期 个 数 高 于 YOLOv4-SE， 说 明 
YOLOv4-CBAM 模型 能 提取 更 加 全 面 丰 富 的 特 
征 ， 更 加 关注 于 识别 目标 ， 从 而 提高 检测 准 
确 率 。 


4 结论 


本 研究 提出 了 一 种 融合 注意 力 机 制 的 改进 
YOLOv4 模 型 对 不 同 生育 期 的 草莓 进行 识别 ， 将 
注意 力 机 制 融 入 到 YOLOv4 主干 网 络 的 CSPRes 
的 第 一 层 卷 积 前 和 最 后 一 层 卷 积 后 ， 网 络 通过 注 
意 力 机 制 对 重要 的 目标 特征 加 以 更 高 的 特征 权 
重 ， 以 融合 草 侮 不 同 生育 期 的 特征 信息 同时 降低 
复杂 背景 信息 的 干扰 ， 提 高 检测 精度 。 

(1) 在 草莓 生育 期 测试 集 上 试验 结果 表明 ， 
提出 的 YOLOv4-CBAM ft A Xf Bt ee FF AEH. FR 
实 膨大 期 、 绿 果 期 和 成 熟 期 的 检测 平均 精度 分 别 
为 92.38%、82.45%、68.01% 和 92.31%， 平 均 精 
度 均值 为 83.79%， 平 均 交 并 比 为 77.88%， 平 均 
检测 时 间 为 26.13 mso 与 其 他 融入 注意 力 机 制 的 
模型 相 比 ，YOLOv4-CBAM 模型 综合 权衡 了 检 
测 精度 与 网 络 运行 速度 ， 且 定位 精度 最 高 ， 可 水 
足 实 时 检测 草 每 生育 期 状态 需求 。 
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(b) 样 例 2 原 图 


(c) 样 例 1YOLOv4 识 别 效果 图 


w F 1 a. : 
: ih — 


(e)4###] 1 YOLOV4-SE 7% 3 KR A ( 们 样 例 2YOLOv4-SE 识 别 效果 图 


图 7 不 同 模 型 识别 草莽 生育 期 效果 图 


Fig. 7 Effect diagram of strawberry growth period identification by different models 


; i | 
- oo i 


(i) 4#4 1 YOLOv4-CBAM 识别 效果 图 (j) #45] 2 YOLOV4-CBAM 识别 效果 图 
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表 2 不 同 模型 识别 不 同 生 长 时 期 草莓 的 置信 和 度 和 个 数 结果 
Table 2 Different models recognize the confidence and number of strawberries in different growth periods 
本 样 例 1 样 例 2 
模型 一 一 - = 
生长 期 置信 度 数量 /个 生长 期 置信 度 数量 /个 
0.98 .0.98 .0.92 .0.91 .0.86 .0.81、 开花 期 0.88 1 
花期 8 
0.75 .0.64 果实 膨大 期 0.87,0.71 2 
YOLOv4 ssp 0.93 ,0.91 0.85 .0.72 .0.69、 5 
a 0.96 ,0.84 ,0.84 ,0.80 .0.79 .0.76、 0.59 0.55 ,0.52 
PEA 0.73 .0.69 .0.63 .0.55 0.99 .0.99 ,0.99 .0.98 .0.95 
.73 .0.69 .0.63 .0. 成 熟 其 .99 .0.99 .0.99 .0.98 .0.95、 
0.94 .0.90 .0.85 
其 1.00 .0.99 .0.95 .0.92 .0.90 .0.87、 iô 开花 期 0.89 1 
化 
0.86 ,0.73 ,0.53 .0.50 果实 膨大 期 0.84 .0.79 .0.54 3 
0.96 .0.94 ,0.87 .0.87、0.84、 
YOLOv4-SE 绿 果 期 7 
— TEN 0.92 .0.89 .0.84 .0.83 .0.80 .0.80、 0.81 .0.56 
下 0.79 .0.74 .0.68 .0.64 .0.59 0.99 .0.99 .0.99 .0.98 ,0.98 
| 0.98 .0.91 .0.85 
N ae 1.00 .0.98 .0.96 .0.95 .0.91 0.91, 开花 期 0.88 1 
= 开花 期 10 本 
© 0.79 .0.76 .0.58 .0.54 果实 膨大 期 0.97 .0.92 .0.89 .0.65 4 
© YOLOv4-SC sep 0.97 .0.97 .0.95 .0.95 .0.91、 7 
n RE 0.96 ,0.96 .0.96 ,0.88 .0.85 .0.84、 0.90 .0.86 
N 果实 膨大 期 l1 
0.79 .0.66 .0.65 ,0.64,0.57 z 1.00 .0.99 .0.99 .0.99 .0.97、 
© 成 熟 期 10 
© 0.96 .0.92 .0.81 ,0.76 .0.72 
N 1.00 1.00 ,0.96 ,0.96 ,0.95 .0.87、 开花 期 0.93 1 
花期 10 
O 0.81 .0.79 .0.76 .0.61 果实 膨大 期 0.98 .0.95 .0.81 .0.65 4 
N YOLOv4- Pe 0.99 .0.98 „0.98 ,0.97 „0.94, 7 
> CBAM 0.97 ,0.95 .0.94.0.85 .0.83 .0.82、 0.88 .0.87 
FAL ar WS 
aes 果实 膨大 期 ll 
S< 0.80 .0.72 .0.71 .0.71 .0.61 成 就 其 0.99 .0.99 .0.99 .0.98 .0.98、 iù 
0 0.98 ,0.93 .0.81 ,0.80 ,0.74 
e TE: * 表 示 YOLOv4 出 现 误 识别 现象 ， 将 果实 膨大 期 和 成 熟 期 误 识别 为 绿 果 期 
T (2) 融入 注意 力 机 制 的 改进 YOLOv4 模 型 对 ZHANG G, YAN Z, WANG Q, et al. Research prog- 
(S) 不 同 生育 期 草莓 的 检测 精度 、 平 均 交 并 比 均 高 于 ress and development suggestions of soilless culture 


YOLOv4 模 型 ， 可 知 融 入 注意 力 机 制 有 助 于 网 络 
学 习 更 加 重要 的 目标 特征 ， 忽 略 无 关 特 征 ， 从 而 
降低 背景 信息 干扰 。YOLOv4-CBAM 模 型 的 平 
均 检 测 时 间 相 比 YOLOv4、YOLOv4-SE 和 YO- 
LOv4-SC 模 型 略 有 增加 ， 但 对 实时 性 检测 影响 不 
大 。 针 对 此 问题 ， 下 一 步 研究 可 构建 更 加 轻 量 级 
的 CBAM Bt HY fk A Bl] YOLOV4 网 络 中 ， 有 效 提 
高 模型 运行 速度 的 同时 提高 检测 精度 。 
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Strawberry Growth Period Recognition Method Under 
Greenhouse Environment Based on Improved YOLOv4 


LONG Jiehua'*, GUO Wenzhong', LIN Sen", WEN Chaowu', ZHANG Yu', ZHAO Chunjiang' 


(1. Beijing Academy of Agriculture and Forestry Sciences Intelligent Equipment Technology Research Center, Bei- 
jing 100097, China; 2. College of Information Science, Shanghai Ocean University, Shanghai 201306, China) 


Abstract: Aiming at the real-time detection and classification of the growth period of crops in the current digital cultivation and 
regulation technology of facility agriculture, an improved YOLOv4 method for identifying the growth period of strawberries in 
a greenhouse environment was proposed. The attention mechanism into the Cross Stage Partial Residual (CSPRes) module of 
the YOLOv4 backbone network was introduced, and the target feature information of different growth periods of strawberries 
while reducing the interference of complex backgrounds was integrated, the detection accuracy while ensured real-time detec- 
tion efficiency was improved. Took the smart facility strawberry in Yunnan province as the test object, the results showed that 
the detection accuracy (AP) of the YOLOv4-CBAM model during flowering, fruit expansion, green and mature period were 
92.38%, 82.45%, 68.01% and 92.31%, respectively, the mean average precision (mAP) was 83.78%, the mean inetersection 
over union (mIoU) was 77.88%, and the detection time for a single image was 26.13 ms. Compared with the YOLOv4-SC mod- 
el, mAP and mloU were increased by 1.62% and 2.73%, respectively. Compared with the YOLOv4-SE model, mAP and mIOU 
increased by 4.81% and 3.46%, respectively. Compared with the YOLOv4 model, mAP and mIOU increased by 8.69% and 
5.53%, respectively. As the attention mechanism was added to the improved YOLOv4 model, the amount of parameters in- 
creased, but the detection time of improved YOLOv4 models only slightly increased. At the same time, the number of fruit ex- 
pansion period recognized by YOLOV4 was less than that of YOLOv4-CBAM, YOLOv4-SC and YOLOv4-SE, because the col- 
or characteristics of fruit expansion period were similar to those of leaf background, which made YOLOV4 recognition suscepti- 
ble to leaf background interference, and added attention mechanism could reduce background information interference. YO- 
LOv4-CBAM had higher confidence and number of identifications in identifying strawberry growth stages than YOLOv4-SC, 
YOLOv4-SE and YOLOv4 models, indicated that YOLOv4-CBAM model can extract more comprehensive and rich features 
and focus more on identifying targets, thereby improved detection accuracy. YOLOv4-CBAM model can meet the demand for 
real-time detection of strawberry growth period status. 
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